#모델 최적화

딥시크, DSpark 공개... 딥시크-V4 생성 속도 최대 85% 향상

DeepSeek(딥시크)가 기존 DeepSeek-V4 모델의 텍스트 생성 속도를 사용자당 최대 85%까지 획기적으로 끌어올리는 추론 가속화 프레임워크 'DSpark'를 오픈소스로 공개했습니다. 이 기술은 가벼운 초안 생성 모듈을 결합하여 실시간 GPU 부하에 맞춰 검증할 토큰 수를 조절하는 방식으로, 모델의 성능 저하 없이(무손실) 서비스 처리량을 크게 개선할 수 있다는 점에서 AI 실무자들에게 매우 중요합니다.

추론 가속화 DeepSeek 오픈소스

MarkTechPost • 42일 전

IMP 8

xFormers로 메모리 효율적인 트랜스포머 구축하기

본 글은 GPU 환경에서 빠르고 메모리 효율적인 트랜스포머 모델 구현을 돕는 실용적인 툴킷인 xFormers의 활용법을 다룹니다. 패킹된 시퀀스(Packed Sequences), GQA, ALiBi, SwiGLU 등 다양한 최신 최적화 기법을 표준 구현과 비교 검증하며, 이를 결합해 학습 가능한 GPT 스타일 모델을 구축하는 과정을 보여줍니다. AI 실무자들에게 대규모 언어 모델(LLM) 학습 및 추론 시 발생하는 병목 현상을 해결하고 컴퓨팅 리소스를 최적화하는 데 매우 중요한 가이드를 제공합니다.

트랜스포머 메모리 최적화 xFormers

The Decoder • 45일 전

IMP 8

마크다운 파일 하나로 GPT-5.5 성능을 20점 이상 끌어올린 마이크로소프트 '스킬옵트(SkillOpt)'

마이크로소프트와 중국 3개 대학 연구진이 개발한 '스킬옵트(SkillOpt)'는 AI 에이전트의 지시 문서(마크다운 파일)를 마치 모델 가중치처럼 훈련 및 최적화하는 새로운 방법론입니다. 이를 통해 GPT-5.5와 같은 최신 모델의 절차적 작업 성능을 평균 20점 이상 향상시켰으며, 최적화된 지시 문서는 다른 모델이나 작업 환경으로도 원활하게 이전(Transfer)되는 뛰어난 활용성을 입증했습니다.

에이전트 프롬프트 엔지니어링 마이크로소프트

r/LocalLLaMA • 75일 전

IMP 8

TurboQuant 정밀 성능 분석과 검증

최근 주목받는 KV-cache 양자화 기법인 TurboQuant의 실제 성능을 검증한 종합 연구 결과입니다. 30B~200B 이상의 다양한 모델과 장문 컨텍스트, 추론 벤치마크를 테스트한 결과, 기존 FP8 방식이 정확도 손실이 거의 없고 처리량과 지연 시간 면에서도 우수한 것으로 나타났습니다. 반면 TurboQuant는 약간의 메모리 절약 효과 외에는 처리 속도 저하를 유발하여 프로덕션 환경에는 FP8이 더 적합한 기본값으로 권장됩니다.

KV-cache 양자화 vLLM FP8

Hacker News • 82일 전

IMP 8

알파에볼브: 제미나이 기반 코딩 에이전트의 산업계 활약

구글 딥마인드의 제미나이(Gemini) 기반 코딩 에이전트인 알파에볼브(AlphaEvolve)가 유전체학 분야에 적용되어 DNA 시퀀싱 오류 교정 모델의 성능을 크게 향상했습니다. 실무적으로 변이 탐지 오류율을 30%나 줄여 생명공학 기업이 유전 데이터를 더 낮은 비용으로 정확하게 분석할 수 있게 되었습니다. 이는 연구자들이 기존에 발견하지 못했던 질병 유발 돌연변이를 찾아내는 데 핵심적인 역할을 할 것으로 평가받는 중요한 성과입니다.

AI 코딩 에이전트 유전체학 제미나이

The Decoder • 83일 전

IMP 8

구글, 멀티 토큰 예측으로 Gemma 4 속도 3배 향상

구글이 공개형 AI 모델인 Gemma 4에 '멀티 토큰 예측(MTP)' 초안 생성기를 도입해 텍스트 생성 속도를 최대 3배까지 높였습니다. 이 기술은 메인 모델이 데이터를 불러오며 대기하는 시간 동안 소형 보조 모델이 여러 토큰을 미리 제안하고 메인 모델이 이를 한 번에 검증하는 방식으로 작동합니다. 품질 저하 없이 스마트폰, 로컬 PC, 클라우드 환경 모두에서 빠른 처리가 가능하며, 소스코드는 Apache 2.0 라이선스로 공개되었습니다.

구글 Gemma 4 모델 최적화